AI资讯新闻榜单内容搜索-Kimi k1.5

大模型强化学习新突破——SPO新范式助力大模型推理能力提升！

当前，强化学习（RL）在提升大语言模型（LLM）推理能力方面展现出巨大潜力。DeepSeek R1、Kimi K1.5 和 Qwen 3 等模型充分证明了 RL 在增强 LLM 复杂推理能力方面的有效性。

来自主题: AI技术研报

8625 点击 2025-06-09 11:02

本文详细解读了 Kimi k1.5、OpenReasonerZero、DAPO 和 Dr. GRPO 四篇论文中的创新点，读完会对 GRPO 及其改进算法有更深的理解，进而启发构建推理模型的新思路。

来自主题: AI技术研报

12209 点击 2025-05-24 14:33

当前，强化学习（RL）方法在最近模型的推理任务上取得了显著的改进，比如 DeepSeek-R1、Kimi K1.5，显示了将 RL 直接用于基础模型可以取得媲美 OpenAI o1 的性能不过，基于 RL 的后训练进展主要受限于自回归的大语言模型（LLM），它们通过从左到右的序列推理来运行。

来自主题: AI技术研报

7542 点击 2025-04-22 08:39

来了来了，月之暗面首个「满血版o1」来了！这是除OpenAI之外，首次有多模态模型在数学和代码能力上达到了满血版o1的水平。

来自主题: AI资讯

9702 点击 2025-01-21 07:44